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摘 要 : 由 于 任意 的 MapReduce 作业 都 需要 独立 的 进行 任务 调度 、 资 源 分 配 等 一 系列 复杂 的 操作 ， 这 使 得 同一 算法 
协同 的 多 个 MapReduce 作业 之 间 ， 存 在 着 大 量 的 宛 余 磁盘 1/O 及 资源 重复 申请 操作 ， 导 致 计算 过 程 中 资源 利用 效率 
低下 。 大 数据 控 据 类 算法 通常 被 切 分 成 多 个 MapReduce Job 协作 完成 ， 以 ItemBased 算法 为 例 ， 对 多 MapReduce 作 
业 协 同 下 的 大 数据 挖 据 算 法 存在 的 资源 效率 问题 进行 了 分 析 ， 提 出 基于 DistributedCache 的 ItemBased 算法 ， 利 用 
DistributedCache 将 多 个 MapReduce Job 之 间 的 IO 数据 进行 缓存 处 理 ， 打 破 作 业 之 间 独 立 性 的 缺陷 ， 减 少 Map 与 
Reduce 任务 之 间 的 等 待 时 延 。 实 验 结果 表明 ，DistributedCache 能 够 提高 MapReduce 作业 的 数据 读 取 速度 ， 利 用 
DistributedCache 重 构 后 的 算法 极 大 地 减少 了 Map 与 Reduce 任务 之 间 的 等 待 时 延 ， 资 源 效率 提高 3 们 以上。 
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Abstract: Because any MapReduce job requires a series of complex operations such as task scheduling and resource 
allocation independently, there are a lot of redundant disk IO and resource duplicate application operations among multiple 
MapReduce jobs coordinated by the same algorithm, causing inefficient resource utilization in job computing process. Big 
data mining algorithms are usually divided into several MapReduce Jobs, taking ItemBased algorithm as an example, this 
papere analyze the resource efficiency of mining algorithm with multi-MapReduce job collaboration scenario. It proposed 
an ItemBased algorithm based on DistributedCache, which used DistributedCache to cache LO data between multiple 
MapReduce Jobs, breaks the defect of independence between jobs, and reduced the waiting delay between Map and Reduce 
tasks. The experimental results show that, DistributedCache can improve the data reading Speed of MapReduce jobs. The 
algorithm reconstructed by DistributedCache greatly reduces the waiting delay between Map and Reduce tasks，and 
improves the resource efficiency by more than three times. 
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引言 MapReduce 与 之 前 的 并 行 计算 模型 (如 PRAM、MPI 等 ) 
相 比 ， 根 本 区 别 是 MapReduce 秉承 “移动 计算 ”而 非 “移动 数 


预计 


二 
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据 IDCUntemet Data Center)2015 年 发 布 的 报告 中 显示 ， 据 ” 的 思想 , “移动 计算 ”的 核心 本 质 是 将 计算 程序 调度 到 离 数 
EH 界 在 2015 年 产生 的 数据 总 和 接近 10 ZB, 并 且 这 一 数字 ” 据 最 近 ( 本 地 ) 的 计算 节点 ， 以 达到 减少 数据 密集 型 作业 计算 
到 2020 年 将 达到 44 ZB。 数 据 爆发 式 的 增长 为 开 产 业 ”过程 中 的 数据 传输 量 的 目的 。 但 是 当 MapReduce 作业 (Job) 
来 了 机 遇 与 挑战 ， 数 据 产 生 的 过 程 由 被 动 模式 转变 为 主动 被 调度 系统 分 解 成 若干 任务 (Task) 后 ， 由 于 任务 之 间 并 不 是 


产生 ， 标 志 着 大 数据 时 代 的 来 临 。 大 数据 的 规模 效应 导致 其 ”孤立 存在 的 ， 任 务 之 间 的 协同 执行 过 程 ， 需 要 大 量 的 磁盘 读 


存储 、 计 算 、 分 析 及 管理 等 成 本 不 断 上 升 ， 这 使 得 高 效率 低 。 写 和 网 络 的 传输 操作 (MapReduce 任务 执行 流程 如 


WR 


成 本 的 大 数据 计算 技术 逐渐 成 为 学 术 界 及 工业 界 的 研究 热点 。 比如 Split、RecordReader、Partition 及 Shuffler 等 操作 ， 


1 所 示 )， 


都 会 


自 谷 歌 2003 年 发 表 论文 公开 分 布 式 存储 系统 GFS 所 及 计算 模 ”涉及 将 中 间 计 算 结果 在 不 同 机 器 之 间 网 络 传输 并 存 到 磁盘 上 
型 MapReduceDB] 以 来 ,MapReduce 计算 模型 逐渐 成 为 Hadoop、 作为 之 后 pipeline 输入 的 操作 。 特 别 基于 MapReduce 模型 实 
Spark、Pig、Hbase 及 Hive 等 大 数据 系统 最 通用 的 底层 计算 现 的 大 数据 挖掘 类 算法 ， 由 于 复杂 度 较 高 ， 算 法 通常 需 由 多 
框架 。 个 MapReduce 作业 协作 完成 ， 如 MapReduce 下 的 PageRank 
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算法 会 被 分 解 为 4 个 作业 ， 而 最 常见 的 Bayes 算法 则 会 被 分 
解 为 10 个 作业 。 但 是 同一 算法 下 的 多 个 MapReduce 作业 之 
间 ， 资 源 的 调度 与 管理 并 不 协同 ， 严 重 的 见 余 磁盘 读 写 及 重 
复 的 IO 资源 申请 操作 ， 造 成 算法 的 资源 利用 效率 较 低 [*91。 
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图 1 MapReduce 任务 执行 流程 

Fig.1 MapReduce’s task execution process 
推荐 算法 属于 大 数据 挖掘 类 算法 中 应 用 最 广泛 的 一 种 ， 
本 文 以 ItemBased 协同 过 滤 算 法 为 研究 对 象 ， 研 究 大 数据 挖 
掘 类 算法 多 MapReduce 作业 之 间 的 资源 效率 问题 , 本 文 做 了 
如 下 几 个 方面 的 工作 : 首先 ， 对 MapReduce 环境 下 的 
ItemBased 算法 存在 的 资源 效率 问题 进行 了 分 析 ; 其 次 ， 在 
问题 分 析 的 基础 上 ， 提 出 将 同一 算法 协同 的 多 个 MapReduce 
作业 之 间 的 IO 数据 进行 统一 的 缓存 处 理 ， 整 体 上 减少 算法 
计算 过 程 中 元 余 的 IO 操作 ， 从 而 达到 优化 资源 利用 效率 的 
目的 ， 最 后 ， 通 过 对 比 实 验 验 证 了 资源 利用 效率 的 提升 。 


1 ”相关 研究 


针对 大 数据 挖掘 类 算法 的 研究 ， 以 推荐 算法 为 例 ， 大 部 
分 研究 目标 都 是 以 提高 算法 在 特定 应 用 场景 下 (如 电子 商务 、 
新 闻 推 荐 、 视 频 推荐 等 ) 的 推荐 质量 。 评 价 算法 优越 性 的 主要 
参数 有 准确 率 (Precision)、 召 回 率 (Recall)、F 值 (F-Measure)、 
E 值 (E-Measure)、 平 均 正确 率 (Average Precision) 等 。 很 少 研 
究 会 关注 到 算法 的 执行 环境 优化 、 资 源 利 用 效率 优化 等 方面 。 
但 随 着 算法 处 理 数 据 量 指数 级 的 增长 ， 以 及 大 数据 并 行 计算 
模型 MapReduce 的 逐渐 普及 , 算法 逐渐 从 单机 模型 向 分 布 式 
模型 方向 发 展 ， 并 且 算 法 的 计算 及 资源 利用 效率 等 方面 也 逐 
渐 受 到 学 术 界 及 工业 界 的 重视 。 
文献 [7,8] 尝 试 借助 MapReduce 程序 的 并 行 性 来 提高 基 
于 用 户 (User-Based) 的 协同 过 滤 算 法 的 计算 效率 ， 在 Hadoop 
平台 上 进行 了 算法 的 实现 ， 并 通过 灵活 设置 作业 map 及 
reduce 任务 的 数量 ， 进 一 步 提 高 了 算法 的 计算 效率 。Schelter 
等 人 中 针对 近邻 (similarity-based neighborhood) 协 同 过 滤 算 法 
在 面 对 海 量 数据 增长 时 可 扩展 性 差 的 问题 ， 基 于 MapReduce 
模型 对 算法 进行 了 重新 实现 ， 并 通过 7 亿 Yahoo 音乐 数据 的 
测试 , 验证 了 算法 在 计算 效率 上 的 提升 。 文 献 [10] 将 MinHash 
聚 类 、 概 率 潜 在 语义 索引 (PLSI) 及 Covisitation 计数 技术 引 
入 到 Google news 的 协同 过 滤 算 法 中 ， 其 中 MinHash 进行 概 


率 聚 类 适用 于 聚 类 精度 要 求 不 高 的 场景 ， 在 此 基础 上 再 利用 
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量 的 元 余 IO 及 资源 重复 申请 操作 ， 算 法 在 资源 利用 效率 上 
还 存在 着 较 大 的 优化 空间 。 目 前 ， 面 对 MapReduce 数据 挖掘 
类 算法 资源 效率 低下 的 问题 ， 已 有 工作 选择 对 算法 进行 平台 
移植 ， 例 如 将 算法 从 Hadoop 平台 移植 到 Spark 平台 02， 利 
用 Spark 内 存 及 迭代 计算 的 优势 , 达到 提高 算法 效率 的 目的 。 
虽然 此 方法 能 够 带 来 不 错 的 优化 效果 ， 但 是 算法 平台 的 迁移 
主要 存在 以 下 两 个 方面 的 问题 : 
a) 迁移 成 本 问题 ,将 算法 从 已 有 的 Hadoop 迁移 到 Spark 
平台 ， 由 于 开发 语言 从 Java 到 Scala， 算 法 整个 实现 的 业务 
代码 都 必须 按照 新 的 API 及 语法 重 写 0 。 迁 移 过 程 中 ， 研 发 


人 员 面 临 较 高 的 学 习 及 开发 成 本 ， 而 系统 管理 人 员 面 临 较 高 
的 系统 迁移 及 部 署 成 本 。 

b) 稳定 性 问题 。 算法 进行 平台 迁移 后 ， 由 于 新 平台 未 经 
过 长 期 的 稳定 性 测试 ， 新 平台 下 的 算法 稳定 性 容易 影响 上 层 
应 用 的 服务 质量 。 

基于 以 上 讨论 , 本 文 与 以 往 工作 不 同 的 是 : 以 ItemBased 


推荐 算法 为 例 , 分 析 其 在 MapReduce 平台 中 存在 的 资源 效率 
缺陷 ， 提 出 将 同一 算法 协同 的 多 个 MapReduce 作业 之 间 的 
IO 数据 进行 统一 的 缓存 处 理 ， 整 体 上 减少 算法 计算 过 程 中 
元 余 的 IO 操作 ， 从 而 达到 优化 资源 利用 效率 的 目的 ; 与 以 
往 平 台 移 植 的 方案 相 比 ， 不 需要 重新 开发 业务 代码 ， 节 省 迁 
移 及 部 署 成 本 的 同时 ， 保 证 了 系统 的 稳定 性 。 


2 多 MapReduce 作业 协作 的 资源 效率 缺陷 


于 物品 与 物品 之 间 的 相似 度 较为 稳定 ,所 以 ItemBased 
推荐 算法 相 比 其 他 算法 (如 基于 流行 度 、 基 于 内 容 、 基 于 模型 
的 算法 等 ) 更 加 适合 做 离线 计算 , 应 用 也 最 为 广泛 。ItemBased 
算法 的 核心 思想 是 “ 物 以 类 聚 ”, 即 假设 能 够 引起 用 户 兴趣 的 
Item 必定 与 其 评分 高 的 Item 相似 。 算 法 首先 计算 用 户 对 物品 
的 喜好 程度 ， 然 后 根据 用 户 的 喜好 计算 Item 之 间 的 相似 度 ， 
最 后 找 出 与 每 个 Item 最 相似 的 top-N 个 Item。 表 1 所 示 为 
Hadoop 平台 下 机 器 学 习 库 Mahout 中 ItemBased 推荐 算法 的 
输入 参数 。 


表 1 ItemBased 推荐 算法 主要 参数 
Table 1 Main parameters of itembased recommendation algorithm 


. 输入 HDFS 文件 地 址 ,其 中 行 数据 文件 格式 为 : 
wp userid itemid preference 
output 算法 结果 HDFS 文件 系统 输出 路 径 
numRecommendations 推荐 数量 (Top-N) 
usersFile 推荐 的 userFile 
itemsFile 推荐 的 itemFile 
maxPrefsPerUser 闵 值 设置 最 大 偏好 值 
minPrefsPerUser 闵 值 设置 最 小 偏好 值 
maxSimilaritiesPerItem ”给 每 一 个 Item 计算 最 多 的 相似 item 数 
threshold 去 除 低 于 参数 threshold 的 item 对 
similarityClassname 指定 进行 相似 性 计算 时 调用 的 方法 类 名 


ItemBased 算法 主要 包括 以 下 四 个 阶段 :a) 准 备 User-Item 


Mapreduce、Bigtable 等 技术 进一步 提高 算法 的 计算 速度 。 又 


献 [1] 将 协同 过 滤 算 法 中 最 核心 的 计算 步骤 切 分 成 四 


与 Item-Item 两 个 和 矩阵; b) 计 算 User-Item 与 Item-Item 两 个 矩 
阵 的 相似 度 ; c) partialMultiply， 即 将 相似 度 矩 阵 用 相同 的 
Item 作为 key 聚合 到 一 起 ,为 后 续 的 矩阵 乘法 做 准备 ; d) 计 
算 推 荐 向 量 。 进 一 步 分 解 ， 可 将 以 上 四 个 步骤 细 分 为 以 下 九 


文 

个 
MapReduce 作业 ， 并 提出 通过 数据 分 区 策略 减 小 算法 执行 过 
程 中 的 数据 传输 量 ， 实 验 表 明 有 效 地 提高 了 Itembased 推荐 
算法 的 网 络 资源 的 利用 效率 。 但 不 管 是 UserBased 还 是 
ItemBased 协同 过 滤 算 法 ，MapReduce 环境 下 的 协同 过 滤 算 
法 都 需要 多 个 作业 协作 完成 ，MapReduce 作业 之 间 存 在 着 大 


个 MapReduce 作业 ， 有 具体 的 MapReduce 作业 所 属 阶 段 即 执 
行 顺序 如 表 2 所 示 。 

单个 MapReduce 作业 通过 任务 调度 器 分 解 为 多 个 map 
及 reduce 任务 , 通过 input 参数 的 设置 值 , 输入 数据 从 HDFS 
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等 文件 系统 中 读 入 后 送 入 相应 的 Map 任务 。 当 Map 计算 结 map、shuffler 及 reduce 的 运行 时 间 累 加 而 成 : 

束 后 , 数据 通过 Shuffle 与 Sort 操作 将 <K,V> 键 值 对 数据 发 送 T= Tp + Tier + Tetee G) 
到 指定 的 Reduce 任务 ， 其 中 Reduce 计算 过 程 中 以 <key， 式 (1)~(3)， 可 以 得 到 整个 算法 的 执行 时 间 Tw : 
Iterator<value>> 作 为 数据 输入 格式 , 最 后 将 Reduce 结果 写 入 


N 
Tron = > (Trap + Traper + Treauee); 
i=l 


到 output 参数 指定 的 文件 路 径 中 。 由 于 MapReduce 作业 的 独 (4) 
立 性 ?9 即 任 党 MapReduce 作 业 都 需 要 独立 的 进行 王 务 调 肥 、 + (Tr + Tr + To) 
资源 分 配 、HDFS 数据 读 取 、 任 务 计算 、 数 据 Shuffle、 结 果 
输出 等 一 系列 复杂 的 操作 。 特 别 对 于 ItemBased 推荐 算法 包 式 (4) 中 ， 作 业 的 子 阶 段 map、shuffler 及 reduce 的 运行 
含 九 个 MapReduce 作业 的 情况 ， 以 磁盘 IO 资源 为 例 ， 算 法 时 间 与 任务 数量 、 节 点 计算 能 力 、 资 源 状 态 及 数据 量 等 因素 
执行 过 程 中 需要 分 别 执行 多 达 18 次 对 HDFS 的 读 取 与 写 入 关系 密切 。 但 是 在 任务 数量 、 数 据 量 及 节点 计算 能 力 相 同 的 
操作 。 这些 高 频次 的 数据 读 写 操作 降低 MapReduce 集群 资源 条件 下 ， 资 源 状态 则 是 影响 作业 运行 时 间 的 主要 因素 。 由 于 
的 利用 效率 的 同时 ， 降 低 了 算法 整体 的 运行 效率 。 于 不同 MapReduce Job 之 间 的 独立 性 ， 使 得 即使 是 同一 算法 的 
磁盘 LO 资源 是 MapReduce 集群 的 性 能 瓶颈 所 在 ， 高 频次 的 不 同 作 业 之 间 ， 在 计算 过 程 中 ， 存 在 严重 的 磁盘 IO 宛 余 及 
磁盘 IO 资源 申请 及 释放 操作 容易 产生 资源 竞争 ， 使 得 Map 资源 重复 申请 操作 , 导致 MapReduce 算法 资源 利用 效率 严重 
与 Reduce 任务 之 间 容 易 出 现 等 待 现象 ,不 同 程度 上 进一步 降 降低 。 根据 式 (4), 理论 上 提高 MapReduce 作业 之 间 资 源 的 利 
低 了 算法 的 计算 效率 。 通过 以 上 分 析 表 明 MapReduce 环境 下 用 效率 (协作 效率 )， 打 破 作业 之 间 独 立 性 的 缺陷 ， 能 够 达到 
的 ItemBased 算法 性 能 优化 并 不 能 单 从 优化 算法 本 身 入 手 ， 是 高 MapReduce 复杂 算法 计算 效率 的 目的 。 
MapReduce 作业 之 间 的 独立 性 导致 的 重复 磁盘 IO 读 取 与 写 3.2 多 MapReduce 作业 资源 优化 方法 
入 操作 ， 是 导致 ItemBased 算法 执行 过 程 中 资源 利用 与 运行 通过 第 2 章 的 缺陷 分 析 及 3.1 节 的 理论 分 析 ， 表 明 提 高 
效率 低下 的 主要 原因 。 MapReduce 作业 之 间 资 源 的 协作 效率 ， 解 决 作业 之 间 独 立 性 
表 2 ItemBased 推荐 算法 MapReduce 作业 执行 分 解 带 来 的 资源 重复 操作 ， 能 够 提高 作业 对 的 资源 利用 效率 。 总 
Table 2 Mapreduce job execution decomposition of itembased 体 上 , 可 以 通过 以 下 两 种 方法 来 优化 多 MapReduce 作业 之 间 
recommendation algorithm 的 资源 效率 : a) 利 用 MapReduce 框架 内 置 的 分 布 式 缓存 
步 又 MapReduce 阶段 MapReduce 作业 名 称 (DistributedCache) 机 制 ， 打 破 MapReduce 作业 之 间 资 源 共享 
1 ItemIDIndexMapper-Reducer 的 屏障 。 缓 存 系统 能 够 将 共享 数据 分 发 到 各 计算 节点 的 内 存 
2 PreparePreferenceMatrixJob ToltemPrefsMapper-Reducer 中 ， 提 高 作业 的 计算 效率 ; b) 在 基于 磁盘 的 分 布 式 文件 (如 
3 ToltemVectorsMapper-Reducer HDFS) 之 上 ， 引 入 以 内 存 为 中 心 的 虚拟 的 分 布 式 存储 系统 ， 
4 CountObservationsMapper-Reducer 将 多 MapReduce 作业 之 间 共 享 的 数据 资源 从 HDFS 中 加 载 到 
5 RowSimilarityJob VectorNormMapper-Reducer 分 布 式 共享 内 存 中 ， 从 而 减少 对 磁盘 IO 的 调用 次 数 。 优 化 
6 CooccurrencesMapper-Reducer 方法 a) 的 优点 是 针对 特定 算法 级 别 的 ， 灵 活性 较 高 ， 但 是 需 
7 UnsymmetrifyMapper-Reducer 要 对 算法 部 分 代码 进行 重 构 和 部 署 ， 需 要 对 算法 代码 进行 部 
8 partialMultiply partialMultiply 分 修改 。 优 化 方法 b) 将 新 的 分 布 式 内 存 文件 系统 部 署 到 生产 
9 RecommenderJob PartialMultiplyMapper-Reducer 系统 中 ， 容 易 对 整个 系统 的 稳定 性 造成 影响 ， 但 是 省 去 了 对 
算法 代码 的 修改 。 针 对 单个 的 ItemBased 算法 ， 中 采 
3 ”ltemBased 算法 MapReduce 作业 资源 优化 0 ， 和 - i 率 。 如 > ， 基 ， 
3.1 ItemBased 算法 多 作业 运行 效率 分 析 DistributedCache 的 ItemBased 算法 步骤 。 
如 表 2 所 示 ，ItemBased 推荐 算法 中 ， 次 计算 过 程 切 算法 1 基于 DistributedCache 的 ItemBased 算法 . 
分 为 PreparePreferenceMatrixJob 、 RowSimilarityJob 、 INPUT:Parameterl: <userID，itemID，score> 用 户 评 分 矩阵 ， 
partialMultiply 及 RecommenderJob 四 个 阶段 ， 并 包括 Parameter2:InputURL. 


ItemIDIndexMapper-Reducer 等 在 内 的 九 个 MapReduce 作业 。 OUTPUT:Parameterl: <userID，itemIDS> 推 荐 结果 ， Parameter2: 
设 MapReduce 平台 下 菜 算法 的 运行 总 时 间 为 Tm， 计算 过 程 OutputURL. 
被 切 分 为 N 个 MapReduce 作业 ， 并 设 每 个 MapReduce 作业 @ for i=0 to readData(InputURL).blocksize-1 do 
的 完成 时 间 为 TT。 当 一 个 MapReduce 作 业 完 成 后 ， 下 一 © block < MEMORY .load(1nputURL)// 读 取 文件 块 
MapReduce 作业 执行 前 需要 进行 资源 准备 ， 设 两 个 @ DistributedCache.addCacheFile(block)// 将 文件 块 加 载 内 存 
MapReduce 作业 与 i+7 之 间 的 资源 准备 时 间 为 Bo ,那么 算 @ end for 
法 的 总 体 完成 时 间 Tw 为 © foreach job in List<PreparePreferenceMatrixJob> list 
je Sn pm (1) © Map oadee Mort) Benob le 

河 河 @) context.setCacheFiles(PreparePreferenceMatrixJob) 

为 了 排除 资源 状态 对 真实 的 MapReduce 作业 运行 时 间 图 context.getrCacheFiles() 


的 影响 ， 将 受 资源 状态 影响 较 大 的 数据 输入 时 间 7T…, 计算 @ end for 
结果 输出 时 间 7 以 及 作业 执行 过 程 中 资源 等 待 时 间 ， Tw foreach job in List< RowSimilarityJob> [list 
等 可 变 时 间 称 为 资源 准备 时 间 。 那 么 某 MapReduce 作业 i 的 ®W MapReduce.start().getJob(list) 
资源 准备 时 间 PY 为 DD context.setCacheFiles(RowSimilarityJob) 
Ps Te FT 4 TD (2) @ context.getCacheFiles() 
而 排除 资源 状态 对 MapReduce 作业 执行 效率 的 影响 后 ， end for 
单个 MapReduce 作业 的 实际 运行 时 间 由 每 个 作业 的 子 阶段 (® MapReduce.start().getJob(partial Multiply) 


录用 定稿 庆 彬 ， 等 : 


context.setCacheFiles(partialMultiply) 

人) context.getCacheFiles() 
context.setCacheFiles(PartialMultiplyyMapper-Reducer) 
context.getCacheFiles() 

@ MapReduce.start().getJob(PartialMultiplyMapper-Reducer) 


@ return Job.addCacheFile(new File("OutputURL")) 


算法 中 ~ 由 行将 ItemBased 算法 根据 输入 参数 InputURL 
将 输入 数据 加 载 到 分 布 式 缓存 中 ; 回 ~@ 行 执行 
PreparePreferenceMatrixJob 阶段 所 有 的 MapReduce 任务 ， 使 
得 ItemIDIndexMapper-Reducer、ToltemPrefsMapper-Reducer 
及 ToItemVectorsMapper-Reducer 三 个 Job 之 间 在 内 存 中 实现 
了 数据 共享 ，@~ 钨 行 执行 RowSimilarityJob 阶段 所 有 的 
MapReduce 任务 ，DistributedCache 实现 了 Count- 
ObservationsMapper-Reducer 、VectorNormMapper-Reducer、 


CooccurrencesMapper-Reducer 及 UnsymmetrifyMapper- 
Reducer 四 个 Job 之 间 的 内 存 数据 共享 ， 由 于 partialMultiply 
与 RecommenderJob 两 个 阶段 由 单个 MapReduce 作业 组 成 ， 
( 引 ~@0 实 现 了 partialMultiply 与 PartialMultiplyMapperReducer 
两 个 作业 的 内 存 数据 读 写 操作 ;最 后 ，@ 行 将 算法 计算 结果 
写 入 内 存 级 的 文件 中 。 
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4.1 实验 环境 配置 

为 了 对 比 ItemBased 算法 在 不 同 测试 环境 下 的 执行 效率 
及 资源 利用 情况 ,本 文 设计 了 两 组 实验 :实验 1 为 MapReduce 
原生 环境 及 DistributedCache 内 存 缓存 条 件 下 数据 吞吐 量 的 
测试 : 实验 2 为 ItemBased 推荐 算法 在 MapReduce 原生 环境 
及 DistributedCache 内 存 缓存 条 件 下 的 对 比 测 试 。 实 验 集群 
节点 总 数 为 11, 其 中 管理 (QMaster) 节 点 数 为 1， 作业 执行 节点 
(Worker) 数 为 10。 集 群 节点 实验 环境 如 表 3 所 示 。 

表 3 总 体 实 验 环境 描述 
Table 3 Description of experimental environment 
项 描述 


UD 


操作 系统 Ubuntu 14.04.5 LTS (Trusty Tahr) 
JVM Version 1.8 for Linux OS 
Hadoo 
. P 2 
Version 
节点 CUP Intel core is Skylake 3.2GHz 
节点 内 存 8GB-DDR4- 2400MHz (4GB*2) 
Seagate Barracuda 1TB 7200 32MB SATA3 
节点 硬盘 
ST31000524AS 
网 卡 信息 TP-LINK TG-3269C PCI RJ-45 


4.2 实验 1 MapReduce 作业 数据 吞吐 量 对 比 测试 

为 了 测试 MapReduce 原生 环境 及 DistributedCache 内 存 
缓存 条 件 下 数据 吞吐 量 的 区 别 , 本 实验 协同 执行 10 个 读 取 文 
本 文件 的 MapReduce Job， 这 样 可 以 将 实验 的 MapReduce 作 
业 的 性 能 瓶颈 控制 到 IO 性 能 上 。 实 验 数 据 量 大 小 为 40 GB 
的 文本 文件 , HDFS 及 DistributedCache 中 数据 块 大 小 分 别 设 
置 为 512 MB 与 1 GB 不 同 的 两 组 。HDFS 中 数据 块 的 分 布 策 
略为 默认 的 机 架 感知 模式 ， 每 组 分 别 进行 三 次 测试 ， 首 先 当 
数据 块 大 小 为 512 MB 时 测试 结果 如 表 4 所 示 。 

将 HDFS 中 的 数据 块 大 小 配置 项 dfs.block.size 以 及 


i 
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表 4 数据 块 大 小 为 512 MB 时 的 测试 结果 
Table 4 Testresults when data block sizeis 512 MB 


编号 耗 时 /s HDFS DistributedCache 性 能 提升 
Application total time 238 203 14.71% 
Job total time 227 188 17.18% 
Average map running time 8 6 25% 
Shuffler running time 177 153 13.56% 
Application total time 245 203 17.14% 
Job total time 226 186 17.7% 
Average map running time 8 6 25% 
Shuffler running time 178 153 14.04% 
Application total time 244 202 17.21% 
Job total time 228 188 17.54% 
Average map running time 8 6 25% 
Shuffler running time 177 151 14.69% 


表 5 数据 块 大 小 为 1 GB 时 的 测试 结果 
Table 5 Testresults when data block size ls 1 GB 


编号 耗 时 /s HDFS DistributedCache 性 能 提升 
Application total time 204 141 30.88% 
Job total time 176 120 31.82% 
Average map runningtime 15 9 40% 
Shuffler running time 132 87 34.09% 
Application total time 187 131 29.95% 
Job total time 169 116 31.36% 
Average map running time 15 10 33.33% 
Shuffler running time 128 86 32.81% 
Application total time 187 136 27.27% 
Job total time 174 118 32.18% 
Average map running time 15 10 33.33% 
Shuffler running time 133 88 33.83% 


根据 表 4 与 5 中 的 数据 可 知 ， 相 比 原生 态 的 HDFS， 无 
论 是 比较 应 用 总 体 完成 时 间 、 作 业 总 体 完 成 时 间 、Map 任务 
平均 完成 时 间 以 及 Shuffler 运行 时 间 ，DistributedCache 均 能 
够 提高 MapReduce 作业 读 取 数据 的 速度 。 特 别 的 ， 对 比 表 4 
与 5 的 数据 ,可 以 发 现 数 据 块 大 小 为 1 GB 时 效率 比 512 MB 
效率 提升 更 大 。 这 是 由 于 当 数 据 块 变 大 时 ， 在 作业 数据 集 大 
小 固定 的 前 提 下 ,整个 MapReduce 作业 Map 任务 数量 减少 。 
由 于 相同 集群 中 资源 数量 固定 ， 所 以 资源 竞争 压力 小 ， 导 致 
Map 任务 的 读 取 速度 变 大 ， 从 而 出 现 数 据 块 越 大 ， 性 能 提升 
越 明 显 的 现象 。 
4.3 实验 2 IltemBased 推荐 算法 对 比 测试 

实验 中 所 采用 的 ItemBased 推荐 算法 的 实现 版 本 来 自 于 
mahout 的 0.11.1 版 本 ， 有 具体 的 算法 运行 类 入 口 为 
org.apache.mahout.cf.taste.hadoop.item 包 下 的 
RecommenderJob 类 ， 使 用 原生 HDFS 文件 系统 为 存储 目标 
时 的 运行 命令 为 : 
./hadoop jar 


be 


[uy 


/home/hadoop/mahout0.11.1/mahout-examples-0.11.1-job.jar 
org.apache.mahout.cftaste.hadoop.item.RecommenderJob 

-i /mahout/itemcf/inputdata 

-0 /mahout/itemcf/result 

-s SIMILARITY LOGLIKELIHOOD 


--tempDir /mahout/itemcf/temp1 


DistributedCache 中 的 数据 块 大 小 配置 项 从 512 MB 设置 为 
1 GB， 再 次 进行 三 次 测试 ， 得 到 测试 结果 如 表 $ 所 示 。 


其 中 :inputdata 为 输入 数据 目录 ;result 为 输出 文件 目录 ;temp 
为 作业 运行 过 程 中 的 临时 文件 目录 。 当 使 用 DistributedCache 
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为 存储 系统 时 ， 按 照 算法 1 对 ItemBased 算法 进行 重 构 。 重 23456/mratings/temp 为 临时 文件 目录 ; SIMILARITY 
构 后 ， 由 于 需要 在 DistributedCache 中 运行 ， 其 运行 命令 与 ”LOGLIKELIHOOD 为 相似 性 计算 参数 。 

HDFS 不 同 ， 其 运行 命令 为 : 实验 中 ， 用 户 评分 矩阵 中 <userID, itemID, score> 数 据 对 
.hadoop jar 为 2000 万 ， 将 实验 运行 三 次 取 平 均值 ， 得 到 HDFS 与 
/home/hadoop/mahout0.11.1/mahout-examples-0.11.1-job.jar DistributedCache 资源 效率 对 比如 表 6 所 示 。 
org.apache.mahout.cf.taste.hadoop.item.RecommenderJob 据 表 6 中 实验 数据 ， 当 存储 系统 为 HDFS 时 ， 算 法 总 的 
-i distributedCache://ubuntu201:23456/ratings/ratings.data 源 等 待 时 延 为 181 s; 当 存 储 系统 为 DistributedCache 时 ， 
-0 _ distributedCache:/Wubuntu201: 23456/ratings/result es 的 资源 等 待 时 延 缩 短 至 39 s。 利 用 DistributedCache 
-s SIMILARITY LOGLIKELIHOOD 重 构 后 的 算法 ， 大 大 提高 了 企业 的 资源 利 效率 ， 资 源 等 待 
--tempDir distributedCache://ubuntu201:19998/ratings/temp 总 时 延 从 原来 的 181 s 减 少 为 39 s, 资 源 效率 提高 了 364.1%。 
其 中 : distributedCache://ubuntu201:19998/ ratings/ratings.data 实验 结果 正好 验证 了 3.1 节 中 对 MapReduce 作业 运行 效率 的 


为 算法 输入 数据 路 径 ; distributedCache://ubuntu201:23456/ 分 析 ， 证 明 DistributedCache 对 资源 的 准备 时 间 ， 即 资源 的 
ratings/result 为 输出 数据 路 径 ，distributedCache:/ubuntu201: 利用 效率 方面 的 极 大 改进 。 
表 6 计算 数据 量 为 2000 万 时 计算 效率 对 比 


Table6 Comparison of computational efficiency when data is 20 million 


ItemBased 算法 阶段 切 分 运行 时 间 /s 
HDFS 作业 运 HDFS 资源 等 DistributedCacheDistributedCache 
Step MapReduce 阶段 MapReduce 作业 名 称 Se " A 
行 时 站 待 时 延 ”” 作业 运行 时 间 “资源 等 待 时 延 
1 ItemIDIndexMapper-Reducer 201 64 199 8 
和 2 PreparePreferenceMatrixJob ToItemPrefsMapper-Reducer 269 15 268 4 
3 ToItemVectorsMapper-Reducer 207 14 207 3 
4 CountObservationsMapper-Reducer 195 12 192 3 
5 ee VectorNormMapper-Reducer 218 16 216 4 
RowSimilarityJob 
6 CooccurrencesMapper-Reducer 436 14 433 4 
了 UnsymmetrifyMapper-Reducer 423 13 424 4 
8 partialMultiply partialMultiply 222 17 218 5 
9 RecommenderJob PartialMultiplyMapper-Reducer 826 16 821 4 
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图 2 存储 为 HDFS 时 的 磁盘 IO 情况 
Fig.2 Disk IO situation when storing as HDFS 
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图 3 存储 为 DistributedCache 时 的 磁盘 IO 情 员 、 
Fig.3 Disk IO situation when storing as distributedcache 
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算法 在 不 同 的 条 件 下 ， 运 行 过 程 中 的 对 磁盘 IO 使 用 情 
况 监控 如 图 2 与 3 所 示 。 其 中 图 2 为 存储 系统 为 HDFS 时 的 
磁盘 IO 使 用 情况 , 图 3 为 存储 系统 为 DistributedCache 时 的 
磁盘 WO 使 用 情况 。 比 如 两 图 可 以 发 现 相 比 原生 的 HDFS， 
DistributedCache 的 磁盘 IO 在 作业 运行 过 程 中 几乎 为 空闲 状 
态 , 只 有 在 最 后 作业 运行 完毕 , 即将 作业 运行 结果 写 入 HDFS 
时 ， 才 产生 了 较 高 的 磁盘 IO 资源 消耗 ， 这 也 进一步 验证 了 
实验 结果 中 作业 资源 准备 时 间 大 大 缩短 的 原因 。 使 用 
DistributedCache 时 , 快速 的 内 存 IO 代替 了 密集 的 磁盘 LO， 
不 仅 优 化 了 作业 运行 过 程 中 的 资源 利用 效率 ， 大 大 缩短 了 资 
源 的 准备 时 间 ， 从 而 整体 上 提高 了 作业 的 运行 效率 。 


5 ”结束 语 


MapReduce 计算 模式 逐渐 成 为 并 行 计算 标准 的 同时 ， 也 
存在 一 定 的 资源 利用 效率 问题 ， 特 别 在 需要 多 个 MapReduce 
作业 协作 完成 的 复杂 大 数据 挖掘 类 算法 场景 ， 多 个 作业 之 间 
三 的 元 余 磁 盘 读 写 及 重复 的 资源 申请 操作 ， 使 得 
MapReduce 算法 的 执行 时 间 、 资 源 利 用 、 能 耗 等 方面 的 效率 
较 低 。 本 文 发 现 造成 该 问题 的 原因 是 由 于 MapReduce Job 的 
独立 性 ， 使 得 同一 算法 的 不 同 作业 之 间 存 在 严重 的 磁盘 IO 
源 重 复 申 请 操作 , 从 而 导致 MapReduce 算法 执行 效 
。 所 以 ， 本 文 首 先 对 MapReduce 环境 下 的 
算法 资源 效率 缺陷 进行 了 分 析 ， 发 现存 在 问题 的 
同时 提出 利用 DistributedCache 缓存 计算 过 程 中 产生 的 
数据 ， 从 而 减少 算法 执行 过 程 中 元 余 的 IO 操作 ， 达 到 优 
资源 利用 效率 的 目的 。 最 后 ， 通 过 两 组 实验 证 明了 使 
DistributedCache 时 ,快速 的 内 存 1/O 代替 了 密集 的 磁盘 IJVO， 
不 仅 优化 了 作业 运行 过 程 中 的 资源 利用 效率 ， 大 大 缩短 了 资 
源 的 准备 时 间 ， 从 而 整体 上 提高 了 资源 的 利用 效率 。 通 过 实 
验 结果 表明 ， 优 化 后 的 IO 资源 效率 提高 3 倍 以 上 。 下 一 步 
工作 主要 研究 在 集群 负载 压力 较 大 时 ， 即 集群 中 同时 运行 多 
组 大 数据 挖掘 类 算法 时 , DistributedCache 资源 的 使 用 及 调度 
效率 。 
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